1 Introducción

Planteamiento del problema, explicación de como se planea abordar el problema (datos y metodología), enfoque actual / técnica analitica, propuesta de como se abordara este problema y como el análisis ayudará al consumidor de este.

2 Metodología

El dataset utilizado para la realización de este estudio contiene información acerca de estudiantes en sitación de desplazamiento matriculados en instituciones educativas de los 82 municipios no certificados del departamento de Santander. Los datos fueron recopilados y actualizados por la Secretaría de Educación de Santander.

Origen y última actualización

Estructura del dataset

El dataset tiene 22 variables (columnas) y 18.062 registros, con información que abarca desde datos sobre las instituciones educativas hasta características específicas de los estudiantes. Algunas de sus variables mas importantes son:

  • d_ano: año en que se recopilo la informació0.n

  • d_muni y d_nombmuni: código y nombre de los municipios.

  • d_provincia: provincia a la que pertenece el municipio.

  • d_nomsec: naturaleza de la institución (privada u oficial).

  • dane_ant y d_sede: codido DANE anterior de la institución (si aplica) y código DANE actual.

  • d_nombinst: nombre del instituto donde esta matriculado el estudiante.

  • d_grado: grado académico del estudiante.

  • d_genero y edad: edad del estudiante.

  • d_genero, d_hombres, d_mujeres: información relacionada con el género.

  • d_tipo: clasificación según el tipo de desplazamiento.

  • etnia: indica a que grupo étnico pertence el estudiante.

  • discapa: indica si el estudiante tiene una discapacidad.

  • metodo: método educativo del estudiante.

2.1 Paquetes

Para la realización de este proyecto, se utilizaron los siguientes paquetes:

  • library(skimr): este paquete se empleó para obtener un resumen detallado del conjunto de datos. Gracias a él, pudimos explorar las principales características del dataset de manera eficiente.

  • ggplot2: este paquete fue utilizado para crear gráficos de alta calidad. Nos permitió generar diversos diagramas que muestran distribuciones y relaciones entre los datos

  • dplyr: este paquete fue usado para la manipulación de datos. Con él, pudimos filtrar, seleccionar, transformar y resumir la información, facilitando la preparación de los datos necesarios para las visualizaciones.

  • RColorBrewer: este paquete ofrece paletas de colores predefinidas, con el pudimos mejorar la estética de nuestros gráficos y hacerlos visualmente mas atractivos.

2.2 Preparación de los datos

Cargado del dataset

Para empezar, cargamos el dataset utilizando la función read.csv(), de esta forma pudimos importar los datos desde el archivo (CSV) para trabajar con el ellos.

Exploración del dataset

Antes de empezar con la limpieza de los datos, hicimos una exploración inicial del dataset para entender su contenido y estructura:

  1. Usamos dim() para verificar el número de filas y columnas y str() para explorar que tipo de datos tiene cada columna.

  2. Con summary() y skim() generamos resúmenes estadísticos para entender mejor los valores de las variables.

  3. Con head() y tail() inspeccionamos los registros iniciales y finales del dataset.

  4. También utilizamos sum(is.na(dataset)) para identificar si habian valores faltantes y cuantos eran.

  5. Con unique() y summary() exploramos mas a detalles columnas de interés para nuestro estudio.

En base a esta exploración inicial podemos decir lo siguiente sobre el dataset:

Limpieza de los datos

2.3 Análisis exploratorio de los datos

3 Resultados

3.1 Análisis demográfico

Enfocado en analizar las características de la población estudiantil desplazada.

¿Cómo se distribuye la población por género?

¿Cuál es la distribución de la población por edades?

¿Cómo se distribuye la población según la etnia?

¿Qué proporción de la población tiene alguna discapacidad?

¿Cuáles son los tipos de desplazamiento más comunes?

3.2 Análisis geográfico

Enfocado en analizar cómo se distribuye la población.

¿Cómo está distribuida la población entre los diferentes municipios y provincias?

3.3 Análisis de las instituciones

Enfocado en analizar las instituciones educativas y su relación con la población desplazada.

¿A qué sector pertenecen las instituciones en donde estudian las personas desplazadas?

¿Qué método educativo es más común entre los estudiantes desplazados?

¿Cuáles son los institutos con mayor número de estudiantes desplazados?

¿Qué instituciones han absorbido más sedes?

3.4 Análisis relacional

Enfocado en explorar correlaciones o patrones entre las variables del dataset.

¿Existe relación entre el método educativo y características demográficas como género, étnica y edad?

¿Cómo se relacionan los motivos de desplazamiento con el grupo étnico de los personas?

  • Información resumida sobre las variables de interés (luego de la limpieza)
  • Mostrar información no evidente
  • Resultados en forma de gráfico y tablas (Facilidad para ver y comprender los resutados)

4 Discusión

Interpretación de los resultados, discutir si los resultados responden a la pregunta hecha inicialmente.

5 Conclusiones

Resumen del problema, resumen de como se abordo el problema (metodologia), ideas interesantes en el analisis, implicaciones para el consumidor, limitaciones de analisis y como se podria mejorar.

6 Referencias